❓Что делать, если распределение данных меняется со временем? Как это влияет на валидацию и Early Stopping
Когда данные со временем «плывут» (то есть меняется их распределение), фиксированный валидационный набор устаревает. В этом случае Early Stopping может остановить обучение в «лучшей» точке для старого распределения, но не для актуального.
🔍Что можно сделать
1. Обновлять или ротационно менять валидационный набор — Чтобы он отражал текущее состояние данных, а не прошлое.
2. Использовать скользящие метрики или онлайн-мониторинг — Особенно в потоковых системах: метрики качества считаются по «живым» данным, а не по статичному отрезку.
3. Переобучать или дообучать модель при обнаружении дрейфа — Если обнаружили drift, стоит не просто дообучить модель, а пересобрать или адаптировать её с учётом новых данных.
⚠️Подводный камень: Если валидация остаётся неизменной, вы можете не заметить, что модель перестала работать. Early Stopping в этом случае остановит обучение слишком рано или слишком поздно — и модель будет плохо обобщать на реальные данные.
❓Что делать, если распределение данных меняется со временем? Как это влияет на валидацию и Early Stopping
Когда данные со временем «плывут» (то есть меняется их распределение), фиксированный валидационный набор устаревает. В этом случае Early Stopping может остановить обучение в «лучшей» точке для старого распределения, но не для актуального.
🔍Что можно сделать
1. Обновлять или ротационно менять валидационный набор — Чтобы он отражал текущее состояние данных, а не прошлое.
2. Использовать скользящие метрики или онлайн-мониторинг — Особенно в потоковых системах: метрики качества считаются по «живым» данным, а не по статичному отрезку.
3. Переобучать или дообучать модель при обнаружении дрейфа — Если обнаружили drift, стоит не просто дообучить модель, а пересобрать или адаптировать её с учётом новых данных.
⚠️Подводный камень: Если валидация остаётся неизменной, вы можете не заметить, что модель перестала работать. Early Stopping в этом случае остановит обучение слишком рано или слишком поздно — и модель будет плохо обобщать на реальные данные.
Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.
Among the actives, Ascendas REIT sank 0.64 percent, while CapitaLand Integrated Commercial Trust plummeted 1.42 percent, City Developments plunged 1.12 percent, Dairy Farm International tumbled 0.86 percent, DBS Group skidded 0.68 percent, Genting Singapore retreated 0.67 percent, Hongkong Land climbed 1.30 percent, Mapletree Commercial Trust lost 0.47 percent, Mapletree Logistics Trust tanked 0.95 percent, Oversea-Chinese Banking Corporation dropped 0.61 percent, SATS rose 0.24 percent, SembCorp Industries shed 0.54 percent, Singapore Airlines surrendered 0.79 percent, Singapore Exchange slid 0.30 percent, Singapore Press Holdings declined 1.03 percent, Singapore Technologies Engineering dipped 0.26 percent, SingTel advanced 0.81 percent, United Overseas Bank fell 0.39 percent, Wilmar International eased 0.24 percent, Yangzijiang Shipbuilding jumped 1.42 percent and Keppel Corp, Thai Beverage, CapitaLand and Comfort DelGro were unchanged.
Библиотека собеса по Data Science | вопросы с собеседований from ca